This report summarizes the 3rd International Verification of Neural Networks Competition (VNN-COMP 2022), held as a part of the 5th Workshop on Formal Methods for ML-Enabled Autonomous Systems (FoMLAS), which was collocated with the 34th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2022 iteration, 11 teams participated on a diverse set of 12 scored benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.
translated by 谷歌翻译
这项在进度论文中的这项工作介绍了基于自动编码器的回归神经网络(NN)模型的鲁棒性验证,遵循最新方法,用于鲁棒性验证图像分类NNS。尽管在各种深层神经网络(DNN)中开发验证方法的验证方法持续进展,但尚未考虑对自动编码器模型的稳健性检查。我们通过扩展此类自动编码器网络的现有鲁棒性分析方法来探索研究的开放空间,并检查如何弥合现有DNN验证方法之间的差距。尽管使用自动编码器的分类模型或多或少地与图像分类NN相似,但回归模型的功能却明显不同。我们介绍了基于自动编码器的回归模型的鲁棒性评估指标的两个定义,特别是鲁棒性和非舒适性等级。我们还修改了现有的Imagestar方法,调整变量以照顾回归网络的特定输入类型。该方法是作为NNV的扩展而实现的,然后在数据集上应用和评估,并在使用相同数据集的案例研究实验上实现了该方法。根据作者的理解,这项在进度论文中是第一个显示基于自动编码器NNS的可及性分析的作品。
translated by 谷歌翻译
在过去的几年中,连续的深度学习模型(称为神经普通微分方程(神经odes))受到了广泛关注。尽管它们迅速产生影响,但对于这些系统缺乏正式的分析技术。在本文中,我们考虑了具有不同架构和层次的一般神经odes类,并引入了一种新颖的可及性框架,可以对其行为进行正式分析。为神经ODE的可及性分析而开发的方法是在称为NNVODE的新工具中实现的。具体而言,我们的工作扩展了现有的神经网络验证工具以支持神经ODE。我们通过分析包括用于分类的神经ODE的一组基准以及控制和动态系统的一组基准来证明我们方法的功能和功效,包括评估我们方法对我们方法在现有软件工具中的功效和能力的评估。如果可以这样做,则连续的时间系统可达性文献。
translated by 谷歌翻译
随着机器学习算法和方法的成功,增强学习(RL)已成为越来越重要的研究领域。为了应对围绕RL训练时赋予RL代理的自由的安全问题,有关安全加固学习(SRL)的工作有所增加。但是,这些新的安全方法的审查少于其不安全的对应物。例如,安全方法之间的比较通常缺乏在相似的初始条件边界和超参数设置,使用较差的评估指标以及樱桃挑选最佳训练运行的情况下进行的公平评估,而不是在多个随机种子上平均。在这项工作中,我们使用评估最佳实践进行消融研究,以调查运行时间保证(RTA)的影响,该研究可以监视系统状态并干预以确保安全性,以确保安全性。通过研究在政策和非政策RL算法中的多种RTA方法,我们试图了解哪种RTA方法最有效,无论代理是否依赖RTA,以及奖励成型的重要性与RL代理培训中安全探索的重要性。我们的结论阐明了SRL的最有希望的方向,我们的评估方法为在未来的SRL工作中进行更好的比较奠定了基础。
translated by 谷歌翻译
In unstructured environments, robots run the risk of unexpected collisions. How well they react to these events is determined by how transparent they are to collisions. Transparency is affected by structural properties as well as sensing and control architectures. In this paper, we propose the collision reflex metric as a way to formally quantify transparency. It is defined as the total impulse transferred in collision, which determines the collision mitigation capabilities of a closed-loop robotic system taking into account structure, sensing, and control. We analyze the effect of motor scaling, stiffness, and configuration on the collision reflex of a system using an analytical model. Physical experiments using the move-until-touch behavior are conducted to compare the collision reflex of direct-drive and quasi-direct-drive actuators and robotic hands (Schunk WSG-50 and Dexterous DDHand.) For transparent systems, we see a counter-intuitive trend: the impulse may be lower at higher pre-impact velocities.
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
行为树起源于视频游戏,是一种控制NPC的方法,但此后在机器人学界获得了吸引力,它是描述执行任务的框架。Behaverify是一种从PY_TREE创建NUXMV模型的工具。对于标准化的复合节点,此过程是自动的,不需要其他用户输入。自动支持各种叶子节点,不需要其他用户输入,但是自定义的叶节点将需要其他用户输入才能正确建模。Behaverify可以提供一个模板以使其更轻松。Behaverify能够创建具有100多个节点的NUXMV模型,NUXMV能够直接和通过反例验证该模型上的各种非平凡LTL属性。该模型具有并行节点,选择器和序列节点。与基于BTCompiler的模型的比较表明,由Behaverify创建的模型表现更好。
translated by 谷歌翻译
荒野地区提供了重要的生态和社会益处,并且有迫切的理由可以发现其积极特征和生态功能在哪里存在并能够蓬勃发展。我们将新颖的可解释的机器学习技术应用于卫星图像,该图像显示了Fennoscandia的野生和人为区域。在可解释的人工神经网络中阻塞某些激活,我们完成了有关野生和人为特征的全面敏感性分析。这使我们能够预测详细的高分辨率灵敏度图,以突出这些特征。我们的人工神经网络提供了可解释的激活空间,增加了对我们方法的信心。在激活空间内,区域是语义上的。我们的方法可以解释用于遥感的机器学习,提供了对现有荒野进行全面分析的机会,并与保护工作具有实际相关性。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
经常性的神经网络(RNNS)是用于处理时间序列数据的强大模型,但了解它们如何运作仍然具有挑战性。提高这种理解对机器学习和神经科学社区的大量兴趣。逆向工程框架训练的RNN通过在其固定点周围线性化提供了洞察力,但该方法具有重大挑战。这些包括在使用线性化动态重建非线性动态时,选择在研究RNN动态和误差累积时难以扩展的固定点。我们提出了一种通过使用新型切换线性动态系统(SLD)制剂的RNN共同训练RNN来克服这些限制的新模型。共同训练的RNN的一阶泰勒系列扩展和训练拾取RNN的固定点的辅助功能管理SLDS动态。结果是训练有素的SLDS变体,其与RNN相近,可以为状态空间中的每个点产生固定点的辅助函数,以及其动态已经规程的训练有素的非线性RNN,使得其一阶项执行计算, 如果可能的话。该模型删除了培训后的固定点优化,并允许我们明确地研究SLD在状态空间中的任何点的学习动态。它还概括了SLDS模型,以在交换机共享参数的同时将SLD模型转换为切换点的连续歧管。我们以与先前的工作逆向工程RNN相关的两个合成任务验证模型的实用程序。然后,我们表明我们的模型可以用作更复杂的架构中的替换,例如LFAD,并应用该LFADS杂种以分析非人类灵长类动物的电机系统的单试尖峰活动。
translated by 谷歌翻译